66 research outputs found

    Evaluation of automatic concept extraction tools within a digital library environment

    Get PDF
    El rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información contenida en las bibliotecas digitales aún no está descrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de la información usando “metadatos” puede ser primordial para el mejoramiento de la consulta de la información dentro de una biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos “metadatos” capaces de describir, en nuestro caso, las tesis doctorales de una biblioteca digital. Estos “metadatos” corresponden a los conceptos más importantes de cada una de las tesis. Actualmente, la identificación manual de conceptos es un largo proceso llevado a cabo por un especialista del área. Por lo tanto, es importante hacer uso de herramientas capaces de extraer automáticamente conceptos. En este artículo analizamos cuatro herramientas de PLN (Procesamiento del Lenguaje Natural) capaces de extraer automáticamente los conceptos claves de un corpus. Estas herramientas son: (1) TerminologyExtractor de Chamblon Systems Inc., (2) Xerox Terminology Suite de Xerox, (3) Nomino de Nomino Technologies y (4) Copernic Summarizer de NRC. Este artículo presenta también un prototipo de herramienta de anotación desarrollado para insertar de manera automática conceptos a las tesis digitales.The rapid advance of technology has led to the proliferation of digital information sources. This computer evolution has led to the creation of digital libraries that have been gradually becoming a great pillar for the dissemination of knowledge. However, the information contained in digital libraries is not yet fully described and its use is still insufficient. Recently, it has been found that the description of information using "metadata" can be essential for improving the query of information inside a digital library. Our approach is based on the creation and introduction of new “metadata” capable of describing, in our case, the doctoral theses of a library digital. These “metadata” correspond to the most important concepts of each of the thesis. Currently, the manual identification of concepts is a long process carried out by an area specialist. Therefore, it is important to make use of tools capable of extracting automatically concepts. In this article we analyze four NLP tools (Natural Language Processing) capable of automatically extracting the key concepts of a corpus. These tools are: (1) TerminologyExtractor from Chamblon Systems Inc., (2) Xerox Terminology Suite from Xerox, (3) Nomino from Nomino Technologies and (4) Copernic NRC Summary. This article also presents a prototype of an annotation tool developed to automatically insert concepts into digital theses

    Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital

    Get PDF
    El rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información contenida en las bibliotecas digitales aún no está descrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de la información usando “metadatos” puede ser primordial para el mejoramiento de la consulta de la información dentro de una biblioteca digital.Palabras claves: Biblioteca digital, metadatos, Procesamiento del Lenguaje Natural, extracción de información, anotación, búsqueda de información

    Revista Colombiana de Computación. Volumen 6 Número 1 Junio de 2005

    Get PDF
    En esta edición tenemos una selección internacional, incluyendo artículos de países tales como Francia, Argentina, España, Inglaterra y por supuesto Colombia.In this edition we have an international selection, including articles from countries such as France, Argentina, Spain, England and of course Colombia

    Using scientific documents for distance learning

    No full text
    International audienceIn scientific digital libraries many documents such as publications, technical reports, theses, etc. could be used as basic data supports for distance learning in the universities. But the native structure of these documents is generally not directly adapted to e-learning. In this paper we present our project in which we study how to modify and manage such documents for a better use in distance learning. In the first part, we introduce the definition of a format for scientific documents suited to e-learning, we propose then to use the XML language features to encode and manage these documents. In the next part, we present the documentary system design based on the new structure of the documents and we finish with the description of the prototype that has been made

    Virtual library for ancient manuscripts

    No full text

    Graph-based Profile Similarity Calculation Method and Evaluation

    No full text
    International audienceCollaborative Information Retrieval (CIR) is a new technique for resolving the current problem of information retrieval systems. A CIR system registers the previous user interactions to response to the subsequent user queries, more efficiently. However well-known problem of personalization in retrieval systems is more acute in CIR systems. The goals and the characteristics of two users may be different; so when they send the same query to a CIR system, they may be interested in two different lists of documents. To solve this problem, we have developed a personalized CIR system, called PERCIRS, based on the users’ similarity profiles to satisfy their queries. Thus, selecting an efficient method to calculate the similarity between user profiles is a key factor for enhancing PERCIRS’s efficiency. In this paper, we propose three methods for user profile similarity calculation. Finally, we introduce a mechanism for evaluating these methods

    A Web-Based Interface to Design Information Visualization

    No full text
    International audienceInformation Visualization is a challenging field, enabling a better use of humans' visual and cognitive system, to make sense of very large datasets. This paper aims at improving the current Information Visualizations design workflow, by enabling a better cooperation among programmers, designers and users, in a one-to-one and community oriented fashion. Our contribution is a web-based interface, to create visualization flows that can be edited and shared, between actors within communities. We detail a real case study where programmers, designers and users successfully worked together to quickly design and improve an interactive image visualization interface, based on images similarities

    Une interface de programmation visuelle pour la composition de services de visualisation d'information

    No full text
    National audienceDans cet article, nous nous intéressons à la création et au partage de visualisations d'information. Notre approche est de considérer la visualisation d'information comme le résultat d'un flot de traitement de données, constitué d'un assemblage de services web qui ont vérifié des règles syntaxiques et sémantiques. Afin de faciliter la composition de ces services, et donc de créer des visualisations d'information, nous introduisons mashviz, une interface de programmation visuelle destinée aux concepteurs de visualisations, ainsi qu'aux utilisateurs pour le partage et l'annotation de ces visualisations. Nous discutons les premières visualisations créées et leur partage, puis donnons les prochaines étapes de nos travaux
    corecore